52 research outputs found

    Automatikus íråsjel-visszaållítås és NagybetƱsítés statikus korpuszon transzformer modellen alapuló neurålis gépi fordítåssal

    Get PDF
    Cikkemben egy Ă­rĂĄsjelvisszaĂĄllĂ­tĂł Ă©s nagybetƱsĂ­tƑ programot mutatok be, amelyet a jelenkori „state-of-the-art” transzformer modellen alapulĂł neurĂĄlis gĂ©pi fordĂ­tĂł rendszerrel tanĂ­tottam be. A mobil eszközökön törtĂ©nƑ ĂŒzenetĂ­rĂĄs elterjedĂ©sĂ©vel Ă©s a minĂ©l gyorsabb szövegbevitelre valĂł törekvĂ©ssel tömeges jelensĂ©ggĂ© vĂĄlt a hibĂĄs szövegek Ă­rĂĄsa. Ennek egyik következmĂ©nye, hogy a interneten elĂ©rhetƑ – fƑleg a szociĂĄlis mĂ©diĂĄbĂłl szĂĄrmazĂł – korpuszok egy rĂ©sze hibĂĄs. Többek között Ă­rĂĄsjelek hiĂĄnyoznak, vagy vĂ©gig kisbetƱvel Ă­rnak. Az Ă­gy lĂ©trejött korpuszok nem alkalmasak kĂŒlönbözƑ kutatĂĄsokhoz, csak tisztĂ­tĂĄs utĂĄn. A tisztĂ­tĂĄs folyamata idƑigĂ©nyes, ezĂ©rt igĂ©ny van kĂŒlönbözƑ korpusztisztĂ­tĂł mĂłdszerekre. Az ĂĄltalam lĂ©trehozott rendszer, annak ellenĂ©re, hogy semmilyen morfolĂłgiai Ă©s szintaktikai elemzƑt nem hasznĂĄl, közel 81%-os f-mĂ©rtĂ©kkel tudja helyesen visszaĂĄllĂ­tani az alapĂ­rĂĄsjeleket Ă©s elvĂ©gezni a nagybetƱsĂ­tĂ©st magyar nyelv esetĂ©ben

    TöbbnyelvƱ modellek és PEGASUS finomhangolåsa magyar nyelvƱ absztraktív összefoglalås feladatåra

    Get PDF
    Napjaink egyik legfontosabb Ă©s legkutatottabb nyelvtechnolĂłgiai terĂŒlete az absztraktĂ­v szövegösszefoglalĂł kĂ©szĂ­tĂ©se. Mind a kutatĂĄsban, mind az iparban egyre nagyobb igĂ©ny keletkezik a feladat megoldĂĄsĂĄra. Az elmĂșlt Ă©vekben magyar nyelven is elindultak a kutatĂĄsok ezen a terĂŒleten, voltak kĂŒlönbözƑ kĂ­sĂ©rletek magyar Ă©s többnyelvƱ elƑtanĂ­tott neurĂĄlis nyelvmodellek finomhangolĂĄsĂĄval. Jelen kutatĂĄsomban elsƑsorban a többnyelvƱ modellek finomhangolĂĄsĂĄra tettem a hangsĂșlyt. Arra kerestem a vĂĄlaszt, hogy a mĂĄs nyelvekre, akĂĄr feladatokra elƑtanĂ­tott modellek hogyan teljesĂ­tenek magyar nyelvre, illetve azok a többnyelvƱ modellek, amelyek angol vagy mĂĄs nyelven a legjobb eredmĂ©nyt Ă©rtĂ©k el absztraktĂ­v összefoglalĂĄs terĂŒletĂ©n, adaptĂĄlhatĂłak-e magyar nyelvre. A kĂ­sĂ©rletem kiterjedt a manapsĂĄg rendkĂ­vĂŒl nĂ©pszerƱ mT5-re, a magyar nyelvi elƑtudĂĄssal nem rendelkezƑ mBART modellre Ă©s az M2M100 gĂ©pi fordĂ­tĂĄs feladatĂĄra elƑtanĂ­tott 100 nyelvƱ neurĂĄlis modellre. Az utĂłbbi kĂ©t modell esetĂ©n a kĂ©rdĂ©s, hogy egy modell, amely nem rendelkezik magyar tudĂĄssal a finomhangolĂĄs sorĂĄn meg tud-e tanulni magyarul megoldani egy feladatot, illetve, bĂĄr rendelkezik magyar tudĂĄssal, de gĂ©pi fordĂ­tĂĄsra tanĂ­tott modell mĂłdosĂ­thatĂł-e absztraktĂ­v összefoglalĂł generĂĄlĂĄs feladatĂĄra. VĂ©gĂŒl, de nem utolsĂł sorban, az angol nyelvre egyik legjobban teljesĂ­tƑ PEGASUS modellt finomhangoltam magyar absztraktĂ­v összefoglalĂł feladatra. Ezzel a kutatĂĄssal kĂ­sĂ©rletet tettem egy angol nyelvƱ modellt magyar nyelvre adaptĂĄlni Ă©s arra kerestem a vĂĄlaszt, hogy vajon ez lehetsĂ©ges-e Ă©s van-e Ă©rtelme. EredmĂ©nyeim azt mutatjĂĄk, hogy mindegyik modell finomhangolhatĂł Ă©s adaptĂĄlhatĂł magyar nyelvre, sƑt az mT5 Ă©s az mBART esetĂ©ben sikerĂŒlt felĂŒlmĂșlni az eddigi legjobban teljesĂ­tƑ magyar BART modellt

    Inzulinrezisztencia betegség jelenségének felismerése és osztålyozåsa orvosi dokumentumokban

    Get PDF
    A jelen cikkben egy kutatĂĄs-fejlesztĂ©s projekt elsƑ fĂĄzisĂĄnak rĂ©szleteit mutatjuk be, amelynek keretĂ©ben az inzulinrezisztencia betegsĂ©g kialakulĂĄsĂĄnak veszĂ©lyĂ©t szeretnĂ©nk elƑre jelezni a nyelvtechnolĂłgia eszközeivel. A kutatĂĄsunk kĂ©tmilliĂł magyar nyelvƱ kĂłrhĂĄzi kĂłrlap feldolgozĂĄsĂĄval törtĂ©nt a modern neurĂĄlis nyelvtechnolĂłgia segĂ­tsĂ©gĂ©vel. A feladatot osztĂĄlyozĂĄsi feladatkĂ©nt Ă©rtelmeztĂŒk, amelyben hĂĄrom kĂŒlönbözƑ esetet kĂŒlönböztettĂŒnk meg: inzulinrezisztenciĂĄs betegek, nem inzulinrezisztenciĂĄs pĂĄciensek Ă©s gyanĂșs esetek. A gyanĂșs esetek közĂ© azokat a pĂĄcienseket soroltuk, akik a kĂłrlapjuk alapjĂĄn nem inzulinrezisztenciĂĄsok, de közben tudjuk, hogy azok. A feladat nehĂ©zsĂ©ge, hogy a programunknak fel kell ismernie a gyanĂșs eseteket Ășgy, hogy a kĂłrlapon nem szerepel az inzulinrezisztencia betegsĂ©g. A problĂ©ma ily mĂłdon egy hĂĄromosztĂĄlyos klasszifikĂĄciĂł feladatkĂ©nt oldhatĂł meg. A kĂłrlapok zajossĂĄga Ă©s fĂ©lig strukturĂĄltsĂĄga miatt, rendkĂ­vĂŒl nehĂ©z belƑle egysĂ©ges relevĂĄns tulajdonsĂĄg jegyeket kinyerni, ezĂ©rt a problĂ©ma megoldĂĄsĂĄra egyedĂŒl a modern nyelvi modellek jöhettek csak szĂĄmĂ­tĂĄsba, amelyek automatikusan nyerik ki a szĂĄmukra relevĂĄnsnak szĂĄmĂ­tĂł nyelvi jegyeket. A kutatĂĄsunkban felhasznĂĄltunk egy statikus Ă©s egy környezetfĂŒggƑ neurĂĄlis nyelvi modellt. Az eredmĂ©nyeink alapjĂĄn, a modelljeink közel 80%-os pontossĂĄggal tudta megbecsĂŒlni, hogy az adott kĂłrlap a fent emlĂ­tett hĂĄrom kategĂłriĂĄbĂłl melyikbe tartozott. Az ĂĄltalunk lĂ©trehozott osztĂĄlyozĂĄsi modellekkel orvosi tĂĄmogatĂĄst tudunk nyĂșjtani, amelynek sorĂĄn a gĂ©p jelezni tudja azon eseteket, ahol, bĂĄr a beteg mĂĄsfĂ©le kivizsgĂĄlĂĄson vesz rĂ©szt, a kĂłrlap alapjĂĄn az adott pĂĄciensnĂ©l felmerĂŒlhet az inzulinrezisztencia betegsĂ©gĂ©nek veszĂ©lye

    "Az invazív medvék nem toleråljåk a suzukis agressziót" : magyar GPT-2 kísérleti modell

    Get PDF
    A GPT-2 egy kizĂĄrĂłlag dekĂłderrel rendelkezƑ autoregresszĂ­v transzformer modell, amely elsƑsorban szöveggenerĂĄlĂł feladatokra alkalmas. A kutatĂĄsomban betanĂ­tottam egy kĂ­sĂ©rleti GPT-2 modellt magyar nyelvre, majd azt tovĂĄbb finomhangoltam kĂŒlönbözƑ nyelvtechnolĂłgiai feladatokra. A kĂ­sĂ©rleteimben az elƑtanĂ­tott GPT-2 modellemet mondatszintƱ Ă©s tokenszintƱ szövegosztĂĄlyozĂĄs, absztraktĂ­v szövegösszefoglalĂł generĂĄlĂĄs, hĂ­rgenerĂĄlĂĄs Ă©s versgenerĂĄlĂĄs feladatokra finomhangoltam. Az eredmĂ©nyek alapjĂĄn a GPT-2 kevĂ©sbĂ© teljesĂ­t jĂłl szövegosztĂĄlyozĂĄs feladatokra. AbsztraktĂ­v szövegösszegzĂ©s feladatĂĄban versenykĂ©pes eredmĂ©nyeket Ă©rt el, azonban a szöveggenerĂĄlĂĄs eredmĂ©nyei mĂ©g Ă©rdekesebbek. A GPT-2 modellemmel lĂ©trehoztam egy hĂ­r- Ă©s egy versgenerĂĄtort

    BARTerezzĂŒnk! : messze, messze, messze a vilĂĄgtĂłl, BART kĂ­sĂ©rleti modellek magyar nyelvre

    Get PDF
    A BART autoregresszĂ­v tĂ­pusĂș modell, amely elsƑsorban szöveggenerĂĄlĂĄsi feladatokra alkalmas. A kutatĂĄsomban kĂŒlönbözƑ BART modelleket tanĂ­tottam magyar nyelvre Ă©s azokat finomhangoltam kĂŒlönbözƑ szöveggenerĂĄlĂĄsi feladatokra. A kĂ­sĂ©rleteimben BART base Ă©s large modelleket tanĂ­tottam magyar Ă©s angol-magyar nyelvekre. Az elƑtanĂ­tott BART modelleket szövegosztĂĄlyozĂĄs, absztraktĂ­v szövegösszefoglalĂł generĂĄlĂĄs, gĂ©pi fordĂ­tĂĄs Ă©s versgenerĂĄlĂĄs feladatokra finomhangoltam. Az eredmĂ©nyek alapjĂĄn a BART kevĂ©sbĂ© teljesĂ­t jĂłl szövegosztĂĄlyozĂĄs feladatĂĄra, de absztraktĂ­v szövegösszegzĂ©s feladatĂĄban „state of the art” eredmĂ©nyeket Ă©rtem el. ÉrdekessĂ©gkĂ©nt a kutatĂĄsom vĂ©gĂ©n egy PetƑfi versgenerĂĄtort mutatok be

    Neural text summarization for Hungarian

    Get PDF

    Absztraktív összefoglalås arab nyelvre

    Get PDF
    KutatĂĄsunkban arab nyelvre tanĂ­tunk kĂŒlönbözƑ absztraktĂ­v összefoglalĂł modelleket. A jelen tanulmĂĄny a kutatĂĄsunk jelenlegi fĂĄzisĂĄt mutatja be. Arab nyelvre az absztraktĂ­v összefoglalĂĄs terĂŒletĂ©n kevĂ©s kutatĂĄs törtĂ©nt, ezĂ©rt korĂĄbbi kutatĂĄsunk sorĂĄn elsƑ feladatkĂ©nt sajĂĄt adatot kellett gyƱjteni. AdatgyƱjtĂ©s utĂĄn sikeresen finomhangoltunk kĂŒlönbözƑ enkĂłder-dekĂłder architektĂșrĂĄjĂș transzformer modelleket. KĂ­sĂ©rleteinkben kiprĂłbĂĄltuk a PreSumm Ă©s a többnyelvƱ mBART mĂłdszereket. A PreSumm mĂłdszerrel ezen a terĂŒleten „state of the art” eredmĂ©nyt Ă©rtĂŒnk el. Jelen tanulmĂĄny ezt a kutatĂĄsi sorozatot folytatja. KutatĂĄsunk sorĂĄn sajĂĄt egynyelvƱ Ă©s többnyelvƱ BART modell tanĂ­tĂĄsĂĄval kĂ­sĂ©rleteztĂŒnk, valamint az mT5 modellt prĂłbĂĄltuk arab összefoglalĂł generĂĄlĂĄsra finomhangolni. KĂ­sĂ©rletĂŒnk sorĂĄn korlĂĄtozott mennyisĂ©gƱ adattal kĂ­sĂ©rleteztĂŒnk, cĂ©lunk az volt, hogy megvizsgĂĄljuk ezen mĂłdszerek alkalmazhatĂłsĂĄgĂĄt. KutatĂĄsunkkal ezĂ©rt vĂĄrakozĂĄsunknak megfelelƑen nem tudtuk felĂŒlmĂșlni a korĂĄbban elĂ©rt legjobb eredmĂ©nyĂŒnket. Azonban Ă­gy is versenykĂ©pes eredmĂ©nyeket tudtunk elĂ©rni, amelyek tovĂĄbbi kutatĂĄsoknak adnak teret, ez azonban nagyobb mennyisĂ©gƱ adat Ă©s infrastruktĂșra elƑfeltĂ©telt is megkövetel

    Absztraktív összefoglaló PreSumm módszerrel

    Get PDF
    KutatĂĄsunk sorĂĄn egy szöveges összefoglalĂł szoftvert kĂ©szĂ­tettĂŒnk magyar nyelvre, többnyelvƱ Ă©s magyar BERT alapĂș modellek felhasznĂĄlĂĄsĂĄval. AlapvetƑen kĂ©tfajta szöveg összefoglalĂĄsi mĂłdszert kĂŒlönböztetĂŒnk meg egymĂĄstĂłl, extraktĂ­v Ă©s absztraktĂ­v. Az extraktĂ­v összefoglalĂłk csak olyan szavakat, kifejezĂ©seket tartalmaznak, melyek megtalĂĄlhatĂłak az eredeti, összegezni kĂ­vĂĄnt szövegben is. Ez a mĂłdszer az eredeti szövegben talĂĄlhatĂł, a legfontosabb szavak kiemelĂ©sĂ©vel kĂ©szĂ­ti az összefoglalĂłt. Az absztraktĂ­v összefoglalĂĄs sokkal inkĂĄbb hasonlĂ­t egy ember ĂĄltal összefoglalt szövegre, megjelenhetnek benne olyan szavak is, melyeket az eredeti szöveg nem tartalmaz. KutatĂĄsunk sorĂĄn absztraktĂ­v modelleket tanĂ­tottunk magyar nyelvre. A modellekhez többnyelvƱ Ă©s magyar egynyelvƱ BERT modelleket hasznĂĄltunk. LĂ©trehoztunk egy demĂł alkalmazĂĄst is, amelynek segĂ­tsĂ©gĂ©vel, valĂłs idƑben is hasznĂĄlhatjuk az összefoglalĂł rendszerĂŒnket. Jelen kutatĂĄsunkban a PreSumm kĂłdot alapul vĂ©ve kĂ©szĂ­tettĂŒk el az absztraktĂ­v összefoglalĂł demĂłnkat
    • 

    corecore